RDA: Agente de diseño de recompensas para aprendizaje por refuerzo
Descubre RDA, un agente basado en VLM que diseña recompensas semánticas para robots. Logra políticas alineadas con instrucciones humanas en manipulación.
Descubre RDA, un agente basado en VLM que diseña recompensas semánticas para robots. Logra políticas alineadas con instrucciones humanas en manipulación.
Aprende cómo los LLMs mejoran el diseño de recompensas en RL cooperativo multiagente, logrando mayor rendimiento en Overcooked.
<meta content=Diagnóstico y refinamiento de recompensas en LLM cuando falla el RL disperso. Aprende a identificar y corregir errores en el diseño de recompensas para mejorar el entrenamiento>